机译:具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘近似策略迭代算法
机译:具有受限成本和Borel空间的折扣马尔可夫决策模型的估计与近似策略迭代算法。
机译:波兰空间中连续时间平均奖励马尔可夫决策过程的策略迭代
机译:关于具有紧凑动作空间的Markov决策过程中策略迭代收敛性的注记
机译:具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘近似策略迭代算法
机译:连续,多维应用程序和收敛性分析的近似策略迭代算法。
机译:使用基于模型的建议对离散状态空间连续时间马尔可夫过程进行快速参数推断
机译:广义半马尔可夫决策过程的近似策略迭代:改进算法